查看原文
其他

三个第一!科大讯飞包揽IWSLT 2021同声传译三赛道冠军

iFLYTEK 科大讯飞集团 2023-01-04
在2021年国际口语机器翻译评测比赛(简称IWSLT)上,科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队在同声传译任务(Simultaneous Speech Translation,简称同传)中包揽三个赛道的冠军。这是继2018年在IWSLT比赛中获得语音翻译端到端冠军之后,科大讯飞再次以实际行动证明了其在语音翻译和机器同传领域的国际领先地位。


包揽同声传译任务三赛道冠军

IWSLT是国际上最具影响力的口语机器翻译评测比赛之一,针对语音翻译实际应用面临的难题,通过每年设定一些研究任务,并向外界提供公开的数据集合,吸引全球各地的科研团队参与比赛,以此推动语音翻译技术创新和知识共享。大赛至今已经举办18年,在业界颇具话语权。

今年的IWSLT为考察不同语言对语序的影响,以及语音同声传译整体性能,在同声传译任务中共设置了三个赛道:一是英德文本同传,实时地将真实的文本翻译成目标语言文本;二是语序差异较大的英日文本同传;三是英语到德语的语音同传,实时地将语音翻译成目标语言文本。

本次比赛针对“翻译质量”和“翻译延迟”两个维度进行评测。英国爱丁堡大学(UEDIN)、德国AppTek公司(APPTEK)、日本奈良先端科学技术大学院大学(NAIST)、字节跳动火山翻译团队(VOLCTRANS)和科大讯飞-中科大联合团队(USTC-NESLIP)等多支队伍参与其中。

翻译效果-延迟曲线(英德文本同传)

最终,科大讯飞团队在以上三个赛道均取得第一名。根据科大讯飞本次提交的最终系统效果,在低中高三个延迟区间上都显著优于其他系统,尤其是在低延迟区间的突出表现,对于进一步推动机器同传的商业落地颇具价值。

表1 英德文本同传效果排名

表2 英日文本同传效果排名

 表3 英德语音同传效果排名

创新性提出CAAT统一同传模型结构

相比人工同传,机器同声传译可以做到不知疲倦地持续翻译,并可保证高译出率和隐私性,在未来具有广泛的应用场景。

但是,机器同传在技术上仍面临着一些巨大的挑战,不仅有低延迟的要求,还面临翻译调序、口语化和级联误差、篇章翻译等难题。需要在翻译质量和翻译延迟之间寻找一个最佳平衡。

讯飞创新性地提出Cross Attention Augmented Transducer(CAAT)同传架构,本次提交的系统正是基于这一框架实现的。 

CAAT模型结构

针对同传任务中翻译质量和延迟这两个评价目标,借鉴语音识别中部分模型的优化方式,它实现了将动态的同传策略和翻译模型联合优化,从而在延迟-翻译质量之间找到了更好的平衡。

相比目前主流的机器翻译技术,CAAT避免了固定延迟导致的延迟过大或翻译质量下降的问题,在相同延迟下取得翻译质量的明显提升。

除了这一模型结构的创新外,针对任务中语音翻译数据量有限这一问题,讯飞还从模型融合、数据增强等策略上进一步优化。

AI创新让沟通不再有边界

正是科大讯飞在机器翻译和语音同传领域的深耕,同时积极推动技术走向落地,在业内首创AI翻译机品类,推出具备多语种翻译的讯飞听见智能会议系统,并不断扩展技术的应用空间,推动AI技术真正服务社会刚需和人类生活。

今年最新推出的讯飞双屏翻译机,在正反两面屏幕的加持下,可呈现出同传级的实时翻译效果,人们在保持社交距离的同时,还能顺畅地对谈交流。特别是创新研发了会话翻译、录音翻译、演讲翻译、同声字幕等功能,可与手电脑、大屏(电视、投影、会场LED等)实现翻译联动,帮助用户在跨语言汇报工作、提案演讲、远程开会时提供实时语音翻译或同传翻译字幕,赋能工作及生活中绝大多数的跨语言场景,开创跨屏翻译时代。


依托科大讯飞的语音转写、机器翻译、语音合成等世界先进水平的智能语音核心技术,讯飞听见同传可提供全场景多语种同传及各类定制服务,支持8国语种的实时转写和中文到多国语种的翻译,已经广泛应用于大型会议、发布会、展览会等场景。

讯飞听见同传为WAIC2021提供转写翻译服务

目前,讯飞听见同传已服务大会超10000场次,听见会议系统累计覆盖1000余家企业单位,讯飞听见会议累计服务1000000次远程视频会议。讯飞听见网站及APP为近1500万用户提供智能转写及翻译服务,累计转写时长超3866万小时,为听障群体定向捐赠时长超1400万小时。

创新永不止步

尽管如此,目前的机器同传技术相比人工同传依然存在很多不足,比如人工同传对表达的语义理解更准确,翻译更地道,机器容易出现直译问题;虽然人工同传会对发言人内容进行删减,但核心内容不会丢失,但机器容易出现识别和翻译错误等问题。 

本次科大讯飞在IWSLT 2021同传任务上的技术突破不是终点,而是新的起点,后续科大讯飞仍将继续用严谨的科学精神,专注核心技术研发,提升在语音翻译和机器同传领域的核心竞争力,进一步迭代提升机器同传的性能和效果。用人工智能让世界沟通无障碍。
知道你“在看”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存